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摘 要 : 慢性 阻塞 性 肺 疾 病 (COPD) 是 一 种 可 导致 患者 呼吸 功能 逐渐 下 降 的 慢性 肺 部 疾病 ， 需 要 借助 于 大 数据 分 析 及 算 
法 帮助 医生 对 疾病 更 加 准确 地 进行 诊断 。 目 前 对 COPD 的 研究 存在 局 限 性 ， 一 方面 ， 研 究 成 果 只 利用 数据 分 析 单 一 特 
征 对 疾病 的 影响 ， 另 一 方面 研究 成 果 仅 通过 简单 算法 模型 对 病例 数据 验证 ， 因 此 提出 了 COPD 多 维特 征 提取 与 集成 诊 
断 方 法 。 首 先 ， 提 出 最 大 依赖 度 MDF-RS 算法 ， 提 取 多 维特 征 的 最 优 组 合 ; 其 次 ， 提 出 DSA-SVM 集成 模型 ， 构 建 分 

类 器 进行 诊断 及 预测 ; 最 后 ， 利 用 交叉 验证 方法 验证 准确 率 等 各 项 性 能 指标 。 通 过 实验 对 比 验证 了 该 算法 的 有 效 性 
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Abstract: Chronic obstructive pulmonary disease (COPD) is a chronic lung disease that can lead to a gradual decline in 


respiratory function. Therefore, big data analysis and algorithms are needed to help doctors diagnose diseases more accurately. 
Oo At present, there are limitations to the study of COPD: On the one hand, the research results only use data to analyze the 
a impact of single features on the disease; on the other hand, the research results are only verified by simple algorithm models 
for case data. Therefore, this paper proposes a COPD multi-dimensional feature extraction and integrated diagnosis method. 
First, the MDF-RS algorithm is proposed to extract the optimal combination of multi-dimensional features. Secondly, the 
DSA-SVM integrated model is proposed to construct the classifier for diagnosis and prediction. Finally, the cross-validation 
method is used to verify the accuracy and other performance indicators. The experimental comparison shows the effectiveness 
of the proposed algorithm. 
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0 引言 病 、 呼 吸 衰竭 等 并 发 症 ， 治 疗 若 不 及 时 ， 会 严重 影响 患者 的 生 
活 质量 和 身心 健康 。 

慢性 阻塞 性 肺 疾 病 (COPD ) 是 一 种 可 导致 患者 呼吸 功能 所 以 COPD 的 早期 发 现 非常 重要 ， 需 要 长 期 稳定 的 管理 患 

逐渐 下 降 的 疾病 ， 其 已 成 为 全 球 第 四 大 致死 疾病 出 ， 全 球 目前 ”者 病情 。 如 果 不 预 防 不 管 理 ， 随 着 疾病 的 进一步 发 展 ， 特 别 是 

约 有 超过 1.7 亿 COPD 患者 。COPD 的 病情 发 展 是 渐进 性 的 过 发生 急性 加 重 就 会 给 患者 带 来 更 大 的 危害 。 急 性 加 重 是 COPD 


程 : 早期 ，COPD 症状 并 不 明显 ， 主 要 是 咳嗽 、 咳 效 ， 患 者 不 “患者 的 咳嗽 、 咳 痰 、 呼 吸 困难 、 胸 间 、 喘 息 等 症状 在 短期 内 急 
易 察 觉 ， 是 最 佳 治 疗 时 机 ; 中 期 ， 随 着 病情 的 加 重 ， 患 者 可 能 。 剧 恶 化 ， 并 可 能 导致 治疗 措施 的 改变 。 随 着 计算 机 数据 挖掘 技 
出 现 活动 后 呼吸 困难 ， 气 道 阻塞 加 重 、 肺 组 织 弹 性 损坏 ， 达 到 ”” 术 的 发 展 ， 该 类 问题 成 为 计算 机 领域 一 个 研究 热点 。 

不 可 道 转 阶 段 ， 各 种 药物 都 难以 发 挥 作用 :晚期 ， 可 出 现 肺 心 前 ， 数 据 挖掘 技术 已 经 广泛 应 用 于 对 COPD 病理 分 析 及 
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临床 诊断 等 研究 领域 所 。 主 要 在 两 个 方面 研究 : a) 利用 现 有 的 

数据 分 析 工 具 对 电子 病例 数据 分 析 ， 以 挖掘 单一 特征 对 疾病 的 

影响 ，b) 通 过 简单 模型 验证 COPD 的 患者 预后 风险 效果 。 本 文 的 目标 是 通过 对 慢性 阻塞 性 肺 疾病 患者 数据 分 析 ， 提 
本 文 的 主要 贡献 包括 : a) 提出 MDA-RS 算法 , 提取 COPD  ” 取 多 维特 征 的 特征 子 集 ， 利 用 混合 决策 模型 DSA-SVM 算法 对 

的 最 优 特征 子 集 ， 以 支持 更 好 的 分 类 结果 ;b) 提出 DSA-SVM 疾病 的 诊断 预测 。 为 了 实现 这 个 目标 ， 有 四 个 问题 需要 解决 ， 

混合 模型 ， 对 慢性 阻塞 性 肺 疾病 进行 分 类 和 预测 ;c) 进 行 大 量 实 。 步骤 如 下 : 数据 预 处 理 ， 利 用 MDA-RS 算法 对 多 维特 征 选 择 ; 

验 ， 证 明 我 们 方法 的 有 效 性 。 优化 参数 算法 DSA; 构建 混合 决策 模型 DSA-SVM 分 类 器 。 

2.1 数据 预 处 理 

A 数据 预 处 理 的 目的 是 为 了 提高 数据 质量 ， 使 数据 挖掘 的 过 
近年 来 ,通过 对 COPD 数据 分 析 及 特征 表现 如 何 辅助 医生 ” 程 更 加 有 效 ， 更 加 容易 ， 同 时 也 提高 挖掘 结果 的 质量 。 数 据 预 

诊断 成 为 一 个 研究 热点 。 研 究 者 们 主要 在 分 析 特 征 影响 因素 及 “处理 的 对 象 主要 是 噪声 数据 、 缺 失 数据 。 常 用 的 数据 预 处 理 技 


2 COPD 方 法 


不 同 阶 段 疾病 风险 预测 方面 做 了 大 量 的 工作 ， 并 获得 了 较 好 效 。 术 主 要 包括 : 数据 清洗 、 相 关 分 析 和 数据 变换 等 。 
果 。 本 文中 对 原始 数据 做 了 适当 的 预 处 理 , 具体 步骤 如 下 所 示 : 
Himes 等 人 中 利用 从 哮喘 病人 的 病历 中 提取 的 特征 和 和 人口 a) 将 分 类 属性 转换 为 数字 数据 项 。 我 们 用 数值 来 表示 每 个 
统计 学 信息 ， 建立 了 预测 COPD 的 模型 ， 并 使 用 该 模型 预测 独 。 ”分 类 值 ， 例 如 ,吸烟 用 1 表示 ， 不 吸烟 用 0 表示 。 
立 哮 呆 患者 的 COPD 预测 准确 性 。 在 这 个 模型 中 ， 年 龄 ， 性 b) 对 原始 的 缺失 数据 通过 临近 值 或 者 均值 填充 。 例 如 
别 ， 种 族 ， 吸 烟 史 等 8 种 特征 预测 了 COPD 的 风险 。 通 过 多 次 ”COPD 数据 集 第 8、16 个 特征 分 别 具 有 37、23 个 缺失 值 ， 可 以 
实验 ， 该 模型 准确 率 达 到 0.83 。 利用 该 属性 的 众 数 填充 。 
Hoogendoorn 等 人 由 使 用 COPD 数据 源 进行 数据 分 析 发 现 0) 数 据 归 一 化 由。 例如 对 第 一 秒 用 力 呼 气 容积 与 用 力 呼 气 
重要 预测 因素 包括 咳嗽 和 喘息 ， 咳 羔 ， 步 行 6 分 钟 ， 使 用 吸入 ”容量 比值 (FEVIMFVC) ， 可 以 归 一 到 〈0~1) 内 数据 通过 归 一 


性 皮质 类 固 醇 和 氧 饱 和 度 。 预 测 结果 符合 真实 病例 情况 ， 但 此 ”化 处 理 有 利于 计算 ， 并 提高 计算 精度 精度 。 其 中 数据 归 一 化 的 
外 ， 低 体重 指数 ， 心 血管 疾病 和 肺 气 肿 是 二 级 保健 患者 住院 治 。 ”公式 如 式 (1) 所 示 ，Xnom 为 归 一 化 后 的 数据 ，X 为 原始 数据 ， 


疗 的 重要 预测 因素 。 Xnu ， 关 min 分 别 为 原始 数据 的 最 大 值 和 最 小 值 。 
郭 慧 敏 等 人 句 使 用 R 语言 做 模型 的 识别 、 模 型 的 参数 估计 X= 六 = 入 全 
与 检验 ， 以 每 月 的 入 院 人 次 构成 时 间 序 列 ， 建 立 ARIMA 模型 Xax — Xmin 
对 COPD 的 预测 ， 结 果 显示 ARIMA 模型 较 好 地 拟 合 COPD 入 院 。 2.2 ”多维 特征 选择 
人 次 并 进行 短期 预测 ， 模 型 显示 了 2016 年 该 院 的 COPD 的 入 图 像 处 理 、 信 息 检 索 以 及 生物 信息 学 等 技术 的 发 展 ,产生 了 
院 有 所 上 升 ， 为 医院 合理 利用 医疗 资源 提供 了 有 力 依据 。 以 超大 规模 特征 为 特点 的 多 维 数据 集 。 如 何 有 效 地 从 多 维 数据 
前 面 介 绍 了 一 部 分 研究 者 通过 分 析 特 征 因素 对 疾病 的 影 ”中 提取 或 选择 出 有 用 的 特征 信息 或 规律 ,并 将 其 分 类 识别 已 成 


响 。 另外, 还 有 其 他 工作 者 对 COPD 不 同 阶段 的 风险 预测 分 析 。 ”为 当今 信息 科学 与 技术 所 面临 的 基本 问题 。 特 征 选择 是 指 从 原 
例如 文献 [6~8] 对 于 风险 分 层 处 理 的 先决 条 件 进行 分 析 ， 使 《” 始 特征 集中 选择 使 某 种 评估 标准 最 优 的 特征 子 集 ,以 使 在 该 最 


COPD 患者 得 到 更 好 的 诊断 及 治疗 ， 以 避免 原 有 的 风险 可 能 导 ” 优 特 征 子 集 上 所 构建 的 分 类 或 回归 模型 达到 与 特征 选择 前 近似 

致 更 高 的 健康 相关 的 生活 质量 及 更 长 的 寿命 和 更 低 的 医疗 成 其 至 更 好 的 预测 精度 。RSI3( 模 拟 退 火 算法 ) 是 一 种 用 于 特征 选 

本 ,文献 [9,10] 通 过 预测 模型 对 风险 分 层 治疗 进行 实验 验证 及 对 ” 择 、 特 征 提 取 、 特 征 减少 和 数据 中 决策 规则 提取 的 数学 方法 ， 

比 。 特别 是 在 数据 不 确定 和 不 完整 的 情况 下 0455。 本 文 在 粗糙 集 RS 
Megalil 等 人 研究 评估 BODE 指数 〈 一 种 预测 死亡 率 的 多 ”基础 上 提出 特征 最 大 依赖 度 算法 (MDF-RS ) 算法 进行 特征 选 

维 分 级 系统 ) 的 能 力 ， 以 预测 COPD 患者 的 病情 状况 。 结 论据 择 ， 最 后 利用 似 然 比 检验 09。 

述 BODE 指数 是 COPD 急性 加 重 次 数 和 严重 程度 的 一 个 更 好 的 。 ”2.2.1 RS 粗糙 集 理论 

预测 指标 。 RS 是 一 种 有 效 的 数据 处 理 方法 , 具有 较 强 的 分 类 能 力 。 从 


通过 总 结 前 人 的 工作 发 现 ， 研 究 者 分 别 从 患者 数据 分 析 及 ”而 可 以 保持 知识 〔 即 特征 ) 分 类 不 变 的 基础 上 对 其 进行 简约 。 
疾病 风险 的 预测 两 个 方面 进行 研究 。 本 文 提 出 了 基于 在 文献 0 中 ， 一 个 知识 系统 被 定义 为 9 = (U, A,V,f) 。 其 中 : 
DSA-SVM 算法 的 混合 决策 方法 对 慢性 阻塞 性 肺 疾病 的 诊断 并 “UU 是 一 个 非 空 对 象 集 ，4 是 非 空 特征 集 ; V = UsecaAw ，V。 
构建 分 类 器 , 通过 属性 最 大 依赖 度 MDA-RS 算法 对 多 维特 征 的 。 ”特征 4 的 值 域 ，f: UVxA4 一 Y 是 一 个 知识 函数 ， 即 每 一 
提取 ， 并 用 交叉 验方 法 验证 了 准确 率 等 各 项 指标 。 (eajs 避 x4 时 都 及 Go a) eV , 即 知识 函数 三 指定 L 中 
个 对 象 u 的 特征 值 。 

定义 1 令 5=(U,A4,V, 了 ) 是 一 个 知识 系统 ，B 是 4 的 任意 
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入 全 并 
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集 ， 对 于 yeU , 当 且 对 每 一 个 特征 4eB,f(%0)=f(y0) 则 称 %》 
关于 8 是 不 可 辨识 关系 , 记 为 IND(B) 。 很 显然 ，4 的 每 一 个 
子 集 可 以 导出 一 个 唯一 的 不 可 辨识 关系 ， 又 称 等 价 关系 ， 而 等 
价 关系 可 以 导出 一 个 唯一 的 聚 类 , 由 IND(B) 导出 的 U 的 聚 
类 记 为 U1/B , 聚 类 U /8B 中 包含 XeU 的 等 价 类 ， 记 为 [x]s。 
定义 2 在 知识 系统 5=(U,4,V, 了 ) 中 ，B 是 4 的 任意 子 集 ， 
和 是 习 的 任意 子 集 , 把 的 有 下 近似 记 为 BCX),X 的 B 上 近 
似 记 为 
3CO= 人 区 swlplssxyas)= 人 区 swllsnx= 作 
O) 
可 以 看 出 BX) 可 以 用 义 的 补 集 (- 耻 ) 的 下 近似 表示 如 式 
(3) 所 示 ，U 的 任意 子 集 久 关于 8 的 近似 精确 度 表示 如 式 (4) 
所 示 。 


B(X)=U— BX) (3) 


oa(X)=|8cx) BX)| (4) 
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集成 诊断 方法 
越 大 ， 因 此 ， 特 征 最 大 的 依赖 度 算 法 的 目标 就 是 选 出 依赖 度 最 
大 的 特征 作为 分 类 的 特征 属性 。 有 具体 算法 步骤 如 下 : 


a) 对 每 个 特征 利用 不 可 辨识 关系 计算 等 价 类 ; 

b) 用 式 〈5) 计算 特征 aj;(iz 办) 的 特征 依赖 度 ; 

c) 选择 每 个 特征 的 最 大 依赖 度 ; 

d) 根据 特征 属性 的 依赖 度 选取 依赖 度 最 大 的 属性 作为 分 

类 特征 属性 。 
最 大 依赖 度 选择 举例 : 假设 有 

间 的 依赖 度 如 表 1 所 示 。 

表 1 最 大 依赖 度 选择 表 


de 


4 个 属性 A, B,C,D， 它 们 之 


属性 (依赖 于 ) 依赖 度 k 最 大 依赖 度 
A B02 C02D1 10.2 
B A04 C02D1 10.4 
C A04 BO0.2D0.6 0.6 
D A0.4 C0.2B0.2 0.4 


比较 表 1 中 全 部 依赖 度 k， 可 以 发 现 最 大 的 k 是 1 出 现在 


这 里 |X| 是 集合 X 的 基数 ， 即 集合 X 的 元 素 个 数 。 对 于 空 


届 性 A 和 B 上 ， 然 后 再 比较 属性 A,B 的 其 它 依赖 度 ， 发 现 最 大 


中 


改定 义 wp (人 力 =1 ,很 明显 0<wa(X)<s1。 如 果 和 是 U 的 某 些 等 价 类 
的 并 集 ， 那 么 Gp(X)=1, 这 时 说 集合 X 关 于 B 是 精确 的 。 相 反 ， 
如 果 X 不 是 V 的 某 些 等 价 类 的 并 集 时 , p(X)<1, 这 时 说 集合 站 
关于 8 不 是 精确 的 。 这 就 意味 着 近似 精确 度 4p(X) 越 高 ， 子 集 
XcU 就 越 精确 。 
2.2.2 特征 依赖 度 
在 粗糙 集 理论 中 ， 可 以 这 样 理 解 特征 重要 度 : 一 个 知识 系 
统 5=(U, 如 中 ，X eA 是 一 个 特征 子 集 。 如果 xc 4， 在 和 中 增加 
之 后 ， 知 识 系 统 提 高 了 对 对 象 的 分 辨 能 力 ， 这 种 能 力 的 提高 
程度 就 是 特征 重要 度 。 提 高 程度 越 大 ， 则 工 对 X 就 越 重要 。 通 
过 特征 依赖 度 可 以 发 现 ， 特 征 之 间 的 内 在 联系 重要 特征 之 间 的 
依赖 度 很 小 ， 重 要 特征 与 次 重要 特征 之 间 的 依赖 度 却 较 强 ， 不 
重要 特征 与 重要 和 次 重要 特征 之 间 的 依赖 度 很 小 。 由 此 可 以 通 
过 特征 依赖 度 去 除 那些 对 分 类 不 重要 的 特征 或 者 提取 出 重要 特 
征 。 


hn 


定义 3 在 知识 系统 $=(U,4,V, 了 ) 中 ,集合 D 和 C 是 特征 
集合 4 的 任意 子 集 ， 如 果 D 中 的 每 一 个 值 都 可 以 精确 到 与 C 
的 一 个 值 关联 ， 则 称 DD 对 C 是 函数 依赖 的 ， 记 为 C3D。 如 公 
式 (5) ， 令 为 依赖 度 ，D 以 度 依赖 于 C， 记 为 CD 。 如 
果 k=1， 则 D 完全 依赖 于 C ; k<1， 则 D 部 分 依赖 于 C 


k= Dope (5) 


系数 上 描述 了 通过 特征 C 能 够 将 U 中 的 元 素 正 确 分 类 到 
划分 UV/D 的 块 中 的 比率 。 因 此 ， 当 k=1, UV 的 全 部 或 部 分 元 
素 能 够 被 划分 到 U/D 的 等 价 类 中 。k=0 时 ，U 中 没有 元 素 
能 通过 特征 C 划分 到 U /DD 的 等 价 类 中 。 也 就 是 说 特征 间 的 依 
赖 度 越 大 对 划分 的 决策 影响 越 大 。 

2.2.3 特征 最 大 依赖 度 算法 (MDF-RS) 
于 特征 依赖 度 越 大 ， 特 征 越 重 要 ， 对 划分 决策 的 影响 就 


的 k 等 于 0.4 时 出 现在 属性 B (A=0.4) 上 ， 由 此 选择 B 是 分 类 
特征 属性 。 


2.2.4 基于 MDF-RS 的 特征 选择 


本 文 将 上 述 提出 的 MDF-RS 算法 进行 COPD 多 维特 征 选取 ， 
选取 过 程 如 下 : 
al) 特征 聚 类 。 聚 类 的 目的 是 将 功能 相近 的 特征 聚 在 一 起 。 


为 了 提取 低 宛 余 度 的 特征 , 利用 KK- 均值 聚 类 算法 对 最 原始 的 数 
据 特 征 进行 聚 类 分 析 。 其中, 欧 氏 距离 来 度量 两 点 之 间 的 距离 ， 
使 用 误差 平方 和 (SSE) 作 为 聚 类 的 目标 函数 寻求 最 小 的 SSE， 
如 公式 6、7 所 示 ， 大 表示 大 个 聚 类 中 心 ，ci 表示 第 几 个 中 心 ， 
dist 表示 的 是 欧 几 里 德 距离 。 


0 = x2)2 + yy) (6) 


SSE = > > dist(c xX)? (7) 


i=] Xeci 
b) 主 特征 选取 。 特征 聚 类 后 , 每 组 类 别 中 包含 的 特征 功能 
是 相似 的 ， 因 此 选取 主要 特征 来 表示 这 个 类 别 并 汇合 这 些 主要 
特征 构成 的 特征 组 。COPD 特征 选择 方法 描述 如 下 。 


Algorithm1:Feature selection of COPD 


1.Input:Sample set 

2.0utput Feature G 

3.Clustering, get {4 , A, .4 } ; 

4Gz9: 

5.FOR(i =1,i<k,itt+) 

6.{ a:Calculate 8 € A; Sample equivalent class; 
7.  b:Calculate the degree of feature dependence; 


8. c:Compare Kk;,8;as A, category main features; 


201806.00121v1 


国 
国 


IV 


| 


Ina 从 


ch 


录用 稿 


9. dG=G+8;i: 

10.}return G 
2.3 直接 搜索 模拟 退火 算法 DSA 

DSAI8I( 直 接 搜索 模拟 退火 算法 )， 是 对 SA091( 模 拟 退 火 算 
法 ) 的 改进 ,该 算法 在 两 个 方面 区 别 于 SA。 首先 在 SA 中 ， 算 法 
维持 一 个 当前 最 优点 , 而 在 DSA 过 程 中 , 算法 维持 一 个 工作 
点 集合 。 所 以 在 SA 中 ,算法 只 在 一 个 点 附近 搜索 ， 这 使 得 SA 
可 能 会 陷入 局 部 收敛 , 而 在 DSA 中 , 算法 在 一 组 工作 点 集合 附 
近 搜 索 , 从 而 能 有 效 地 跳出 局 部 最 优点 。 改进 后 的 DSA 算法 如 
算法 2 所 示 。 


Algorithm2:A direct search variant of the simulated annealing algorithm 


1.G=G0,p=P(s);//Initial state, precision 
2. Gpest=G,ppest=p; 

3.k=0; kmax=Constant Value; 
4.MaxScore=A constant Value;  //evaluation count 
5.while (k<kmax & p<=MaxScore) 

6.{//While time left & not good enough 

7. Gnew=Neighbor(G); 

8. pnew=P(Gnew); 

9. ifexp (pnew -p) > Random () 


10. { 

11. G=Gnew: 

12. p=pnew; //Yes, change state. 
13 } 

14 if pnew>pbest 

15 { 

16. Gbest=Gnew; 


//Save’new neighbouring’ ‘best found 


17. pbest=pnew; 
18. k=k+1; 
19. } 


20.}return Gbest, pbest WReturn the best solution found. 

初始 化 DSA 的 参数 ,然后 随机 初始 化 SVM 的 参数 (C,Y )。 
首先 为 它们 选择 邻居 , 并 尝试 用 DSA 搜索 来 调整 这 个 邻居 , 通 
过 交叉 验证 技术 来 比较 这 些 不 同 的 〈《C,Y ) 为 了 不 断 优化 参数 
(C,Y ) 。 其 次 ， 为 了 进一步 调整 内 核 函 数 参数 ， 我 们 在 最 佳 
局 部 〈C,Y ) 周围 构建 一 个 虚拟 窗口 ， 直 到 该 参数 为 我 们 所 接 
受 范围 内 ， 当 调整 C 和 YY 的 参数 值 使 得 准确 率 等 指标 不 断 提 高 
并 趋 于 稳定 时 停止 调 参 。 最 后 ， 使 用 最 优 的 〈C, Y ) 参数 


5binRXI 全 合作 ; FE 期 刊 | 
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c) 计 算 每 个 模型 的 平均 泛 化 误差 ,根据 式 (8) ， 选 择 泛 化 
误差 最 小 的 模型 Ci 。K 折 交 叉 验证 方法 , 每 次 留 作 验证 的 为 总 
样本 量 的 1Ak. 


GMES -2 (8) 
通过 交叉 验证 得 到 的 每 组 (C,v ) 组 合 , 公式 如 式 (9) 所 示 。 
ort 和 records 9) 
total records 
2.4 建立 模型 


本 文 构建 的 分 类 器 模型 及 方法 的 流程 图 如 图 1 所 示 ， 首 先 
模型 输出 (C, Y ) 的 最 优 值 , 然后 构建 分 类 器 。 在 获得 最 好 的 数据 
对 (C，Y) 之 后 , 构建 双向 耦合 (PWC) 概率 估计 的 学 习 分 类 器 。 双 
向 耦合 是 一 个 受 欢 迎 的 多 层次 分 类 方法 ， 它 将 对 每 个 类 的 所 有 
比较 组 合 了 起 来 。PWC 构造 了 ri;= k(k=)/ 2,1<i<k,1<j< 
过 i 的 分 类 器 。 这 个 分 类 决策 是 由 聚合 分 类 器 的 输出 做 出 的 。 

二 元 分 类 器 用 于 估计 成 对 类 的 概率 


广 对 司 的 估计 可 以 通过 


训练 训 


1 =p(Yo =i =iorYo = j, x0) ， 


练 集 的 第 个 和 第 j 个 类 得 到 。 
杜 ” 的 方法 。 


为 了 计算 这 个 概率 ， 我 们 用 了 


然后 ,使 用 所 有 的 ri 来 达到 目标 ， 即 估计 
Pi =(76 = 让 ko , i=1…K。 因 此 ， 在 测试 阶段 ， 每 个 分 类 器 都 


可 以 估计 分 类 结果 的 概率 , 如 式 〈10) 所 示 。 


dy ={(xn, yn)|yn =ior yn=j1SnsN} (10) 


3 ”实验 结果 


3.1 COPD 数据 集 

COPD 数据 集 是 从 合作 伙伴 医疗 系统 的 电子 医疗 记录 中 提 
取 的 ， 并 且 筛 选 出 对 患者 观察 至 少 5 年 的 数据 作为 我 们 的 实验 
数据 集 。 该 实验 的 目的 是 通过 对 患者 进行 各 种 医学 检测 的 结果 
及 症状 表现 来 预测 COPD 疾病 是 否 存在 .数据 集 含 有 1200 个 样 
本 ， 属 于 两 个 不 同类 别 ， 共 有 750 名 COPD 患者 (62.5%) 和 
450 名 (37.5% ) 不 是 COPD 患者 但 与 COPD 患者 有 相似 症状 ， 
我 们 从 实验 样本 的 电子 病历 中 提取 出 原始 的 26 个 特征 ,特征 的 


DSA-SVM 建立 模型 并 测试 数据 集 。 本 文 参数 〈C,Y ) 的 间隔 
区 间 设 置 为 2525) ，(255.25), 对 于 所 有 可 能 参数 组 合 〈C， 
Y ) 用 交叉 验证 计算 。 随 后 ， 解 释 一 下 本 文 在 DSA 直接 搜索 模 
拟 退 火 算法 使 用 交叉 验证 算法 。k 折 交 叉 验 证 的 算法 来 优化 参 
数 ， 具 体 步 又 如 下 所 示 ; 

a) 随机 将 样本 集 $ 划分 成 k 个 不 相交 的 子 集 , 每 个 子 集中 
样本 数量 为 mk 个 ， 这 些 子 集 分 别 记 作 5S1,S2...S4 ; 

b) 对 于 每 个 模型 ， 进 行 如 下 操作 : 
kK,51U5j4U5j4…U54 作 为 训练 集 ， 训 练 模型 C; = 4 (Sj \5) 


for j=l to 


者 述 如 表 2 所 示 。 
3.2 COPD 特征 选择 结果 
原始 数据 集中 对 高 维特 征 提 取 是 模型 精确 度 等 各 项 指标 的 
关键 一 步 , 所 以 , 对 原始 特征 选择 对 于 分 类 模型 具有 重要 意义 。 
但 在 传统 学 习 方法 中 无 法 提取 最 优 的 特征 组 合 ， 因 此 ， 本 文 提 
出 了 MDF-RS 算法 并 通过 该 算法 获得 的 特征 子 集 。 
a) 特 征 聚 类 。 在 前 面 我 们 介绍 使 用 KK- 均值 聚 类 算法 ， 根 据 
原始 数据 的 特点 ， 本 实验 初始 化 k=7， 把 原始 数据 聚 为 7 堆 ， 
结果 如 图 2 所 示 。 
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MDF-RS FEATURE SELECTION 


DSA based on SVM Initialize state & Max-Score 


了 


-一 人 | Select neighbor of Selected (C ,Y) 


permute and divide train dataset to 
K parts 


里 
Select one of the part as test set and 
(k-1) parts as validation set 


Reduce Iteration & size 


of window 
全 
New-Score(C ,Y )=CV 
Scoring(C ,Y ) New-Score>PreScore 
No 
全 


Yes 


| 


Pre-Score(C ,Y )=CV 
Scoring(C ,Y) 


Pre-Score(C , Y )>=Max-Score 


图 1 DSA-SVM 分 类 模型 
ee G=-2[n(L,, 1)-In(L,,)] (11) 
特征 特征 值 村 征 特征 值 K-Means 
FO:Sex Male,female F13: 喘 干 0,1 0.9 -下 
Fl1:FEV1/FVC 0~1 F14: 咳 嗽 0.12.3.45 o > 

F2: 劳 动 0,1,2,3,4,5 F15: 黑 热 0,1 - Er 

FEF3: 流 涕 0,1 F16: 胸 痛 Gi . : 

F4::Age 0,1,2,3,4,5 F17: 胸 间 0,1,2,3,4,5 Se 

:乏力 0,1 F18: 心 慌 0,1 oa 

FG: 自 汗 0,1 F19: 信 心 0,1,2,3,4,5 2 

EF7: 咳 羔 0,1,2,3,4,5 F20: 精 力 0,1,2,3,4,5 加 | 

F8: 睡 眠 0,1,2,3,4,5 F21: 发 热 0,1 0 

i 2 和 0,1 图 2 K-mease 聚 类 图 

F10: 体 重 0,1,2,3,4,5 F23: 浮 肿 0,1 表 3 特征 选择 

F11: 便 秘 0,1 F24: 舌 若 0,1 R size feature 

Fl12:mMRC 0,1,2,3,4,5 F25: 紫 绀 0,1 R1 9 Fo,P2, Ps,Fa,Fs,Fs,F10,F14,Fig 

b) 主 特征 选取 。 根 据 聚 类 后 的 7 堆 特 征 ， 使 用 MDF-RS 算 R2 9 Fo,Fi,Fs,PoFo, P12, P17, Pz, P23 
法 从 中 选取 主要 的 特征 作为 特征 子 集 。 从 表 3 可 以 看 出 ， 特 征 R3 12 Fo,P2, Fa, Fs,Fs,F1,F13,Fi6, Fis, Pio, P21,F23 
组 合 是 由 9 到 19 维 数 的 特征 子 集 组 成 ， 通 过 MDF-RS 算 获得 R4 13 Fu Fz, Fs, Fo, Fy, Fs,Fio,Pu, P13,Fi4Fi6,F17, Pig 
了 14 个 的 子 特征 组 合 (R1-R14) 。 a 一 化 后 ， 特 征 R5 13 Fo,F;, Fs, Fy, Fe,F7,Fi0,Fii, Fi4, Fis,Fig, Fa, P24 
按 权重 排序 如 图 3 所 示 . 提 取 的 最 优 特征 子 集 组 合 将 作为 ” R6 14 Fo,F», Fa FF Fe, Fio, Fi Fia, Pio Pis, Pa, Fo Fos 
DSA-SVM 模型 的 输入 ， 最 后 用 自然 比 检 验 ， 计 算 结果 如 表 4 R7 15 Fo,F1, Fy, Fy Fs, Fo Fg Fio,F12,F13, FIG Fis, Foo0, Fo Fs 
所 示 。 其 中 似 然 比 检验 统计 量 的 公式 如 式 〈11) 所 示 。 R8 16 Fo,Fi,F, Fs,Fo, Fg, Fy,Fio,Fi1, Fi2,F1s,Fi6,Fig, Fi9,F2i, P24 
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R9 17 Fo, Fi1, FP, Fs3,Fs, Fe,F7,Fs,F11,F13,F15,F17,F1s,F19,F23,F24, FP2s 
R10 17 Fo, Fi, FP, Fs, Fs, Pe, Fy, Fs, P11,F12, Fi16,F17,F18g, P19,F23, F24, F25 
RI1l 18 Fo, Fi1,F2,F3,Fs, Fe,F7,Fs,F11,F14,F16,F17,F'1s,F19,F22,F23,F24, P25 
R12 19 Fo, Fi, FP, FP, Fa, Fs, Fs, Fy, Ps,F11,F14a,F16,F17,F1s,F19,F22, PF23, P24, P25 
R13 19 Fo,F'1,F2,Fs,Fa,Fs,Fs,F7,Fs,Fo,F1o,P11,F12,F13,P14,F1s, P16,F17,P'1s 
R14 19 Fi, PF, Fs, Pa, Fs, Fs, FP7, Fo, Fi10, P11, Fi14, P15,F17,F18g,F19, P21, PF23, F24,Ps 
010 
0.08 
0.06 
0.04 
002 
000 114911075164312138111821061523211925222024 
图 3 特征 选择 图 
表 4 似 然 比 测试 表 
特征 Fo,F1,Fo,F3,Fa,Fs,Fe,FP7,Fs,Fo,Fi0,Fun,F12,F13,F14,F15,F16,F17,FP18 


G8.2,7,6.5,6,6.3,5.5,5.3,5,4.9,4.7,4,4.6,4.8,4.9,4.8,4,3.8,3.9,3.6 


从 表 4 结果 可 以 看 出 


， 在 19 个 检验 统计 量 都 大 于 


et 


过 结果 得 出 在 


通过 DSA-SVM 
参数 


算法 特征 选择 出 的 特征 组 合 R13 一 致 。 因 此 ， 
其 中 一 ia 
取 的 这 19 个 多 维特 征 对 慢 阻 肺 诊断 非常 有 意义 
3.3 实验 结果 DSA-SVM 
本 文 利用 MDF-RS 算法 进行 特征 选择 后 ， 
对 数据 集 进行 分 类 。 为 了 提高 模型 的 准确 率 等 各 项 指标 ， 
C 和 7 组合 搭配 是 非常 重要 的 ， 因 此， 利用 直接 搜索 模拟 退火 


算法 对 SVM 参数 C 和 7 组 合 进行 


， 并 设置 参数 范 


一 个 虚拟 窗口 


加 


效 


于 稳定 ， 最 后 月 


图 


4 所 示 。 其 中 ， 信 


交叉 验证 方法 找到 
对 本 实验 的 C 和 7 的 参数 组 合 及 对 


值 直 到 参数 为 所 
参数 C 和 7 最 优 


: 


接受 范 


化 ， 本文 在 局 部 参数 内 建 Y 


k 


加 


组 合 。 我 们 


[应 准确 率 ) 


维 


区 


表示 ， 如 


多 


4 


加 


4 用 方 框 


C .7 及 准确 率 三 维 表示 


| 


起 的 点 就 是 参数 最 优 组 合 及 其 
准确 率 ，C 和 7 分别 为 (14.5，0. 352) ， 准 确 率 达 到 94. 6%， 
而 不 同 特征 组 合 R 的 分 类 准确 率 如 表 5 所 示 。 


可 加 员 昌 加 


accuracy rate 
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表 5 分 类 指标 精度 


合作 期刊 法 


R 准确 率 特异 性 灵敏 度 
RI1 89.25% 94.21% 97.42% 
R2 86.13% 94.14% 96.33% 
R3 88.62% 93.25% 97.15% 
R4 87.21% 94.56% 98.22% 
RS 90.38% 95.34% 97.43% 
R6 91.53% 93.48% 96.84% 
R7 90.34% 95.82% 94.16% 
R8 94.22% 96.31% 98.36% 
R9 94.17% 96.62% 99.21% 
R10 93.84% 95.81% 98.34% 
RI1l 92.2% 96.95% 98.89% 
R12 94.13% 94.83% 97.37% 
R13 94.6% 96.2% 99.83% 
R14 94.52% 94.97% 97.34% 
3.4 实验 比较 
在 文献 中 ， 有 大 量 研究 者 用 单一 的 和 混合 方法 来 诊断 慢 阻 
肺 疾病 ， 但 在 处 理 数据 集 缺 失 值 及 模型 参数 方面 存在 着 不 足 。 
文本 通过 MDF-RS 特征 提取 算法 和 DSA-SVM 分 类 模型 对 慢 阻 肺 诊 
断 取 得 了 良好 的 效果 。 
首先 , 在 本 节 中 ， 所 提出 的 方法 与 先前 的 机 器 学 习 模 型 比 
较 来 进行 比较 。 本 文 的 DSA-SVM 算法 在 准确 率 、 召 回 率 、Fl 值 
三 个 指标 都 取得 了 良好 的 效果 ， 比 较 结果 如 表 6 所 示 。 
表 6 方法 比较 
方法 准确 率 召回 率 Fl 
Logistic 90.3% 85.65% 89.2% 
Decisiontree 92.26% 83.7% 87.43% 
XGBoost 93.76% 87.8% 90.4% 
随机 森林 93.68% 92.4% 89.7% 
Svm 93.7% 91.32% 91.21% 
DSA-svm 94.6% 93.2% 92.9% 
其 次 ， 在 本 节 中 除了 与 不 同 模型 之 间 的 比较 , 还 与 昌文 献 
[3，5] 进 行 了 比较 。Himes 使 用 了 贝 叶 斯 网 络 模型 预测 COPD 


患者 ,1 
患者 ， 


住 确 率 达到 83.3%， 而 郭 等 人 使 
达到 90.2， 本 文 相 比 较 Himes 和 郭 的 准确 
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率 、Fl 值 有 所 提 
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[SJ] ， 


同时 AUC 值 达到 了 0.94， 这 说 明 本 文 方法 取得 了 有 效 结果 。 
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图 6 FF 指数 比较 图 
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图 7 ROC 比较 图 
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疾病 诊断 预测 的 DSA-SVM 模型 及 


选择 算法 ， 


通过 各 种 指标 进行 比较 ， 从 这 些 


吉 果 可 以 看 出 ， 用 于 慢 阻 肺 疾病 的 DSA-SVM 诊断 算法 获得 了 较 
好 的 结果 。 因 此 ， 所 提出 的 DSA-SVM 诊断 算法 对 于 医生 对 患者 
做 出 最 终 决 定 是 非常 有 帮助 的 ， 它 可 以 辅助 医生 对 慢 阻 肺 疾病 
进行 诊断 从 而 减少 误诊 率 。 在 未 来 的 慢 阻 肺 疾病 诊断 研究 中 ， 
将 使 用 不 同 的 特征 提取 和 其 他 学 习 方 法 来 提高 诊断 系统 的 准确 
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